Logistic Regression
逻辑回归,能融合多种特征。
$y=f(W^x+b), y \in {0, 1}, f$ 是 link function
线性分类
硬分类 :<-> 直接输出输出对应的分类 $y \in {0, 1}$
线性判别分析[[Fisher]]
[[感知机]]
软分类 :<-> 产生不同类别的概率 $y \in [0, 1]$
概率生成式(连续),类别先验 [[Gaussian Discriminant Analysis]] GDA [[Naive Bayes Classifier]]
- $P(y=0|x), P(y=1|x)$ 的大小关系
概率判别式(离散) Logisitic Regression
- 直接对 $$P(Y|X)$$ 建模
逻辑回归
$$P(Y|X, \theta)=p_1^yp_0^{1-y}$$ 服从[[Bernoulli Distribution]]
- 求 MLE 转化成 Cross Entropy
$P(C|x)$ 利用[[贝叶斯定理]] $$P(C_1|x)=P(x|C_1)P(C_1)$$
取 $$z=\ln \frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2}$$
激活函数 [[sigmoid]] $f(z)=\frac{1}{1+exp(-z)} \in (0, 1.0)$
阶跃函数不连续,sigmoid函数光滑,处处可导
数据取值范围从正无穷压缩到 0-1
两类联合概率比值的对数
odds 几率代表事件发生和不发生的比值 $$\frac{p}{1-p}$$
对数几率的线性回归
$$P(y=0|x)=\frac{1}{1+\exp(-w^Tx)}$$
$$P(y=1|x)=\frac{\exp(-w^Tx)}{1+\exp(-w^Tx)}$$
MLE $$w=\mathop{argmax} \sum(y_i \log p_1 + (1-y_i)\log p_0)=\mathop{argmax} \sum(y_i \log f(x,w) + (1-y_i)\log (1-f(x,w))$$
- 等价于 Cross Entropy
多分类
softmax regression
参数冗余
多标签:每个标签设计一个分类器
在推荐系统中,LR 当成是一个分类问题处理,通过预测正样本的概率对物品进行排序。将推荐问题转化为预估问题。另外也能使用 [[Pair Wise]]
优点
数学含义:用户是否点击广告是一个经典的掷偏心硬币问题,显然符合伯努利分布
可解释性强
工程化较为简单
[[面试]]
LR归一化问题
- 什么情况可以不归一化 :-> 最小二乘法
- 什么情况必须归一化 :-> 梯度下降算法
- [[Wide&Deep]]
提到LR损失函数要能知道交叉熵,为什么是它,以它为损失函数在优化的是一个什么东西,知道它和KL散度以及相对熵的关系
+
提到LR的求解方法,比如SGD,知道SGD和BGD的区别,知道不同的GD方法有什么区别和联系,二阶优化算法知道什么,对比offline learning和online learning的区别
提到调参,知道模型不同超参数的含义,以及给定一个特定情况,大概要调整哪些参数,怎么调整
提到LR的正则,知道l1l2的原理,几何解释和概率解释
LR的分布式实现逻辑是怎么样的,数据并行和模型并行的区别,P-S架构大概是怎么一回事
LR作为一个线性模型,如何拟合非线性情况?
- 特征侧比如离散化,交叉组合,模型比如引入kernel,又可以推广到FM等model上
LR 如何解决低维不可分
- 通过核函数将特征从低维空间转换到高维空间,高维空间中线性可分的几率会变高
Logistic Regression
https://blog.xiang578.com/post/logseq/Logistic Regression.html